AI 快讯列表关于 TPU v8i
| 时间 | 详情 |
|---|---|
|
2026-04-23 20:09 |
Google 推出 TPU v8i:与 Gemini 联合设计,凭借片上SRAM与KV缓存优化实现超低延迟推理
据 Jeff Dean 在 X 表示,TPU v8i 与 Google 的 Gemini 团队联合设计,通过大量片上SRAM将更多计算留在芯片内,显著减少对HBM的权重与KV缓存访问,从而实现低延迟推理。根据 Jeff Dean 报道,这一内存局部性优化直指Transformer推理瓶颈(注意力KV缓存带宽与时延),可加速逐token生成并降低长尾时延。依照 Jeff Dean 信息,该设计为企业级 Gemini 部署带来更高吞吐与能效比,并改善对实时对话、代码助手与多模态智能体等业务场景的响应性能。 |
|
2026-04-23 19:55 |
Google 发布 TPU v8t 与 v8i:7 大亮点与训练推理成本分析
据 Jeff Dean 在 X 表示,Google 在 Cloud Next 发布 TPU v8t(面向大规模训练)与 v8i(面向高吞吐推理),并在官方博客披露了芯片细节。根据 Google Cloud 公告,v8t 强调更高带宽互连与更大 HBM 容量以加速大模型训练,v8i 面向低时延与高性价比的推理场景。按照 Google 博客介绍,这两款 TPU 与 Vertex AI 及 JAX、PyTorch 深度集成,帮助企业缩短训练周期并降低总体拥有成本。依据 Google 提供的数据,相比上一代 TPU,新平台在性能每美元与能效上均有提升,使 v8t 适配前沿模型训练、v8i 适配大规模在线服务。对企业而言,据 Google Cloud,总体策略是:将基础模型训练集中到 v8t 机架集群,面向低时延与高并发推理工作负载切换至 v8i,从而优化吞吐与成本结构。 |